SWE bench
https://www.swebench.com/
ベンチマークだが、中身は色々ある
基本的には、Agentにリポジトリと問題を与えて、パッチを当てられるかというベンチマーク
Verified
SWE-bench Verified が登場 | OpenAI
SWE benchにはテストが与えられていない問題が混じっているので、このような問題を解決するために、人間のプロ開発者にSWE benchを検証させた500個のサンプルで構成されたサブセット
15分未満で解ける簡単なテストから1時間以上かかる難しいテストまである
言語はPythonらしい